获取数据要趁早!祭奠那些逝去的数据
1
引子
最近有很多读者问《全国一、二、三级流域数据》,三级流域那个网站不见了,看博客也没有了,然而我也没存这个数据,因为用不到。还有读者问《自然保护区、生态功能保护区等数据加载》数据怎么加载不了,因为那个网站没了。还有读者问一些乡镇数据获取不到,其实很多也是没了。不过因为这件事,确实给我们提了一个醒,那就是获取下载数据要趁早。我将讲述几个实例说明获取数据要趁早为什么很重要。
2
实例
在新浪微博最早开放的那几年,听说数据获取是很容易的,既没有反爬虫,也可以直接获取坐标。然而现在想要获取微博数据已经相当难了。其他的网站也是如此,我有个同学因为爬马蜂窝网站的游记,我发现整个办公室的电脑都无法登陆马蜂窝了。
上面讲的是爬虫的黄金期过去了,尤其是出台了网络数据安全法的现在,爬取这些包含个人隐私的东西其实还有法律风险。我在这篇文章中主要想说的是一些GIS论文中常用但现在无法用的数据。
比如说,2000年的土地覆盖已经很难获取了,在globallandcover网站刚开始建立的时候,我通过注册申请,可以很容易的通过FTP方式下载到自己需要的土地覆盖数据,即使我提到过《快速下载1:25万公开版基础地理数据》中的地理信息专业工程网站,也只能下载2010年的数据,也许在不久的将来,这套数据说不定就绝版了。我在文章《Globe30数据,你下载到了吗?》搞了个投票,绝大部分人都没有申请到,当然我也没有,反正我没有科研任务无所谓。
非常不稳定的交通运输部出行云官网,这个很不错的网站曾经消失了好几年,让我非常痛心,现在他又出来了,所以说,同志们赶紧下载啊、。。。虽然数据现在也有更新,也很诱人,然而都需要申请获取,可以直接下载的2018年后就没有再更新过。
腾讯位置大数据不更新了。这个数据我想很多同学早就知道腾讯位置大数据不再更新了,而且人口迁徙数据19年后就没变过,百度地图迁徙数据也发布公告了,不再更新了。《良心|哈佛大学COVID19数据资源(包含百度迁徙数据)》不过我在之前的文章中提到了《高德地图城市迁徙数据》,同学们,不用我多说了,赶紧去获取吧,加油!
3
总结
在这个“发表为王”的时代,谁先获取到新颖而权威的数据(貌似大家都会默认BAT美团滴滴等是权威数据。。。),谁就能先一步发表高水平期刊,其他的人就只能在排在前面人的基础上吃剩下的东西,除非你很厉害,写方法的,那算我没说。
获取数据要趁早!!!